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基于 随机 森林 算法 的 土壤 有 机 质 含量 高 光谱 检测 
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2 绿洲 生态 教育 部 重点 实验 室 ,新 疆 


乌鲁木齐 ”830046 ) 


fi 要 : 为 了 探讨 既 能 保留 光谱 信息 又 能 准确 对 土壤 有 机 质 含量 进行 快速 检测 。 以 新 疆 南 部 渭 干 


为 平缓 ,同时 在 水 分 豚 收 波段 处 , 盐 渍 土壤 光谱 


解 层 区 


子 的 


中 ,中 频 范围 特征 光谱 对 干旱 


基于 L-MC 建立 的 模型 精度 最 高 。 研 究 表 明 ; 基 


河 一 库 车 绿洲 内 部 73 个 土壤 样 点 及 其 对 应 的 高 光谱 数据 为 研究 对 象 , 采 用 小 波 变换 与 数学 变换 进 
行 光谱 数据 预 处 理 ,分析 各 小 波 分 解 重 构 光 谱 在 不 同 有 机 质 含量 与 不 同 土壤 类 型 下 光谱 曲线 差异 ， 
通过 相关 分 析 确 定 最 大 小 波 分 解 层 并 筛选 敏感 波段 ,结合 灰色 关联 分 析 与 随机 森林 预测 分 类 模型 
对 各 小 波 分 解 特征 光谱 进行 重要 性 分 析 , 最 后 基于 最 优 特征 光谱 建立 多 元 线性 预测 模型 并 进行 分 
析 。 结 果 表 明 :(1) 耕作 土壤 与 林地 土壤 光谱 曲线 波段 相 较 盐 渍 土壤 和 荒漠 土壤 光谱 曲线 变化 较 
H Be 
机 质 含量 的 相关 性 随 着 分 解 层 数 增 加 呈现 先 减 后 增 趋势 ,在 第 6 层 中 ,特征 光谱 曲线 与 敏感 波段 数 
量变 化 趋 于 稳定 ,确定 为 小 波 变换 最 大 分 解 层 。(3) 随机 森林 模型 相 比 灰色 关联 分 析 对 于 各 小 波 
筛选 符合 预期 ,按照 对 土壤 有 机 质 含量 影 
-(1/LgR)' 16-(1/LgR)' \L5-(1/LgR)' 12-(1/LgR)' 10-1/LgR DLLgR。(4) 在 小 波 分 解 光 
区 土壤 有 机 质 含量 的 估 测 能 力 优 于 高 频 与 低频 范 


KERR (2) 小 波 变 换 分 解 光 谱 与 土壤 有 


响 从 高 到 低 排序 为 13-(1/LgR)'、 


用 特征 光谱 ,同时 
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高 光谱 ; 


EA PUE (Soil organic matter,SOM) 是 地 球 表 
面 土壤 中 重要 组 成 物质 ,作为 反映 土壤 肥力 以 及 土 
地 生产 能 力 的 重要 因子 。 国 内 外 不 同学 者 利用 高 光 
谱 技 术 对 不 同 土壤 类 型 估 测 SOM 含量 ,发 现 SOM 


机 器 学 习 分 类 方法 结合 小 波 分 解 的 土壤 光谱 有 
机 质 含 量 监测 ,可 以 有 效 的 减少 噪声 波段 干扰 ,并 提高 特征 波段 的 分 类 预测 精度 。 
土壤 有 机 质 含量 ; 小 波 变换 ; 随机 森林 


口 Sdavitzky-Gplayl 滤波 进行 土壤 有 机 碳 检测 中 光 
谱 数 据 平滑 去 品 。 上 述 研究 虽然 能 对 光谱 反射 率 数 
据 起 到 去 噪 和 压缩 的 效果 ,但 是 对 于 白 噪 声 ,尤其 是 
随机 和 低频 信号 ,难以 做 到 去 除 噪 声 又 不 影响 有 用 


在 土壤 光谱 曲线 不 存在 明显 吸收 峰 , 对 于 可 见 光 至 
近 红 外 范围 存在 明显 光谱 敏感 区 "~”。 众 多 学 者 利 
用 高 光谱 数据 对 SOM 含量 进行 定量 估算 , 均 取 得 了 


信号 。 小 波 变换 方法 作为 一 种 新 的 光谱 平滑 去 噪 技 
术 , 已 经 成 功 应 用 在 高 光谱 数据 处 理 中 。LIAO 
等 '” 采 用 4 种 常用 光谱 变换 方式 对 SOM 含量 进行 


ARR! 。 由 于 土壤 中 存在 与 SOM 含量 不 相 
关 的 噪声 波段 ,所 以 有 效 减 少 噪声 影响 并 保留 光谱 
有 效 信息 是 SOM 光谱 定量 估算 的 难点 。 

现今 比较 成 熟 的 光谱 平滑 去 噪 技术 包括 Savitz- 
ky-Golay 滤波 .中 值 滤波 ,移动 平均 法 等 。MORGAN 
等 (1 使 用 移动 加 权 算 法 进行 土壤 有 机 碳 含量 的 估 
测 ,RIENZI 27! 和 NOCITA 等 59] 选用 不 同 采 样 窗 
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分 析 建 模 , 结 果 表 明 小 波 变 换 对 于 减少 噪声 波段 方 
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乘 模型 ,结果 表明 小 波 变换 具有 很 好 光谱 降 噪 效果。 
张 锐 等 ”研究 发 现 ,中 频 范围 小 波 分 解 层 对 SOM 
含量 的 预测 较为 精确 , 陈 红 艳 等 "与 王 延 仓 等 
研究 发 现 高 频 范围 小 波 分 解 特征 光谱 对 于 SOM 会 
量 的 预测 较为 适合 。 以 上 研究 表明 , 相 比 较 传统 的 
光谱 去 噪 方法 ,小波 变换 能 实现 光谱 信号 的 去 噪 与 
特征 光谱 选择 。 

前 人 的 研究 多 集中 在 小 波 分 解 特征 光谱 与 
SOM 进行 定量 估算 ,但 是 较 少 考虑 通过 数据 挖掘 模 
型 进行 小 波 分 解 重 构 光 谱 结合 数学 变换 的 优选 并 进 
行 SOM 含量 的 预测 ,因此 本 文选 择 渭 干 河 一 库 车 河 
三 角 洲 (简称 渭 一 库 绿洲 ) 为 研究 区 ,选取 表层 SOM 
含量 与 相对 应 的 土壤 光谱 进行 定量 分 析 并 进行 建 模 
反 演 。 分 析 不 同 SOM 含量 下 与 不 同 土地 利用 方式 
下 土壤 光谱 反射 率 在 各 波段 与 各 分 解 层 的 差异 , 根 
据 各 层 特 征 光 谱 曲 线 与 SOM 含量 之 间 相 关 性 确定 
最 佳 分 解 层 ,并 对 原始 土壤 光谱 数据 和 重 构 光 谱 分 
别 进行 9 种 数学 变换 ,利用 随机 森林 数据 挖掘 模 型 
与 灰色 关联 分 析 方 法 ,对 小 波 分 解 特征 光谱 因子 进 
行 重要 性 分 类 ,最 后 进行 干旱 区 SOM 含量 的 多 元 线 
性 建 模 预测 ,为 干旱 区 土壤 养分 的 研究 与 当地 精准 
农业 提供 科学 参考 与 支持 。 


1 研究 区 概况 与 研究 方法 


1.1 研究 区 概况 

以 新 疆 维吾尔 自治 区 的 渭 一 库 绿 洲 内 部 区 域 
(41°06' ~ 41°38'N 81°26' ~ 83°17/E) 为 实验 区 ,其 
中 包括 库 车 、 沙 雅 . 新 和 3 个 县 。 渭 一 库 绿洲 位 于 新 
吐 塔 里 木 伟 地 中 北部 ,是 新 疆 具 有 代表 性 的 干旱 区 
绿洲 。 年 内 平均 气温 范围 在 0.5 ~ 14.4 % ,年 内 平 
均 降 水 在 67.5 mm 左右 。 属 于 典型 的 极端 干旱 区 
域 。 土 壤 类 型 主要 以 潮 土 灌 淤 土 和 棕 漠 土 等 为 主 ， 
同时 也 有 水 称 土 . 盐 土 . 草 甸 土 、 沼 泽 土 等 "1。 依 据 
野外 实地 采样 单元 确定 研究 区 范围 ,如 图 1 所 示 
(由 Landsat-OLL 8 影像 红 绿 蓝 波段 合成 ) 。 
1.2 研究 方法 
1.2.1 土 样 采集 与 光谱 处 理 在 2017 年 7 月 中 
名 ,采集 了 分 布 于 绿洲 区 域内 部 的 73 个 土壤 样品 
(图 1) ,覆盖 了 绿洲 内 部 区 域 的 不 同 土地 利用 方式 ， 
包括 农田 、 荡 地 . 盐 渍 地 和 林地 。 按 照 5 点 梅花 状 采 
集 表层 (0 ~ 10 cm) 土 样 且 将 5 个 土 样 进行 混合 ,将 
土 样 带 回 实验 室 ,进行 自然 风干 .人 研磨 并 将 土 样 中 的 
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Fig.1 Map of the study area 


Ae VETS Fl RU vk i, SOM 含量 的 测定 采用 重 铬 
酸 钾 容量 一 外 加 热 法 ( 油 浴 ) 测 定 。 土 壤 反射 率 数 
据 的 测定 采用 ASD Field spec3 便携 式 光 谱 仪 在 暗 
室内 进行 ,将 过 0. 25 mm 筛 的 土壤 样品 装载 进深 
1.8 cm 直径 12 cm 盛 样 由 内 ,波谱 范围 在 (350 ~ 
2 500 nm) ,室内 光源 为 50 W 的 而 素 灯 ,采用 5° 视 
场 角 光纤 探头 。 光 谱 测 定 前 均 进 行 白板 校正 ,每 个 
土 样 测量 10 次 ,算术 平均 以 后 得 到 土 样 的 实际 反射 
光谱 曲线 ,去 除 边缘 波段 (350 ~399 nm) 和 (2 401 ~ 
2 500 nm)。 为 了 消除 光谱 数据 受 实验 环境 、 光 谱 高 
频 随 机 噪声 、 杂 散光 等 干扰 影响 ,采用 Savitaky- 
Golay (2 次 多 项 式 ,5 个 点 ) 平 滑 去 品 呈 ”| 。 

1.2.2 小 波 分 解 ”小 波 分 析 是 一 种 基于 健 里 叶 变 
换 法 发 展 起 来 的 数据 分 析 方 法 ,小 波多 尺度 分 解 是 
通过 构造 小 波 基 函 数 对 分 析 函 数 进行 多 斥 度 分 解 ， 
常见 的 小 波 变 换 有 连续 小 波 变换 ( Continuous wave- 
let transform, CWT) 和 离散 小 波 变换 (Discrete wave- 
let transform, DWT) 。 小 波 分 解 将 原始 光谱 信号 分 
解 为 不 同 子 频带 的 时 频 分 量 ,从 而 更 好 地 观察 原始 
言 号 的 特定 频率 特征 ,小 波 分 解 的 每 一 层 子 频带 可 
表示 为 原始 光谱 某 一 频率 的 吸收 特征 ,相对 应 的 高 
频 光 谱 信号 则 被 小 波 滤波 嚣 去除- 。 根 据 王 延 
仓 等 研究 结论 ,因此 本 研究 选取 db5 小 波 母 函数 对 
原始 光谱 进行 8 层 小 波 变换 ,并 构建 各 层 特征 光谱 ， 
以 L1 ~ 18 表征 ,最 后 再 选取 与 SOM 含量 相关 性 较 
好 的 L1 ~ L6 层 特征 光谱 进行 进一步 的 分 析 。 

1.2.3 随机 森林 模型 ”随机 森林 模型 (Random 
Forest Model, RFM) 属于 机 器 学 习 的 一 大 分 支 一 集 
成 学 习 (Ensemble Learning) 77}, RFM 算法 是 基于 
决策 树 分 类 集成 算法 ,其 中 每 一 棵 树 都 依赖 于 一 个 
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随机 向 量 ,通过 对 数据 集 的 列 变量 和 行 变量 观测 进 
行 随机 化 ,生成 多 个 分 类 数 , 最 终 将 分 类 树 结果 进行 
汇总 。RFM 对 于 非 线性 问题 有 很 好 的 解释 能 力 , 相 
比 于 神经 网 络 ,降低 了 运算 量 的 同时 也 提高 了 预测 
精度 。 本 文 在 R 语言 中 ,利用 Random Forest 工具 包 
进行 预测 分 类 ,在 进行 拟 合 前 ,分 别 对 需要 生成 树 的 
数量 (B = ntree) 参 数 设 定 为 600 ,每 个 节点 处 用 于 分 
制 节点 的 预测 变量 树 (d = mtry ) 参数 设 定 为 3。 模 
型 的 重要 性 分 类 指标 由 平均 下 降 精 度 参数 ( Mean 
Decrease Accuracy ) 提供 ,模型 的 预测 性 能 可 以 通过 
预测 相关 系数 (及 ) SST AIRE (RMSE )2 个 指标 
来 衡量 REM 预测 性 能 。RFM 的 R? 越 大 ,RMSE 越 
小 ,其 REM 估算 准确 性 越 高 ,反之 则 准确 性 越 
Bs 
1.2.4 数据 预 处 理 在 确定 最 大 小 波 分 解 尺度 的 
基础 上 ,将 经 过 小 波 分 解 的 各 层 光 谱 特 征 数据 进行 
9 种 常规 数学 变换 ,这 9 种 数学 变换 包括 对 数 
(LgR) \ 倒 数 (1AR) \ 倒 数 的 对 数 (Lgl1AR) 、 对 数 的 倒 
数 (1/LgR) 一 阶 微分 (R') \ 倒 数 的 对 数 的 一 阶 微分 
( (Lgl /R)") 对 数 的 倒数 的 一 阶 微分 [ (1/LgR)”、 
对 数 的 一 阶 微分 [(LgR) 倒数 的 一 阶 微分 [(1/ 
情 )'] 。 这 些 数 学 变换 在 Excel 和 Oringin9. 2 中 进 
行 ,小 波 分 解 在 MatlabR2012a 进行 操作 。 

1.2.5 数据 分 析 与 建 模 验 证 ”选取 原始 光谱 与 重 
构 光 谱 与 SOM 相关 性 最 大 的 波段 为 多 元 逐步 回归 
模型 的 自 变 量 ,SOM 含量 为 模型 的 因 变量 。 并 且 参 
HE SOM 含量 与 重 构 兴 谱 随 机 和 森林 分 类 结果 对 应 的 
特征 波段 作为 多 元 逐步 回归 建 模 自 变量 L-MC ,SOM 
含量 作为 模型 因 变 量 。 模 型 精度 评价 参数 有 :校正 
决定 系数 (Determination of cofficients , R?) ,验证 决定 
系数 ( Determination coefficients of validation , R? ) FR 
留 预 测 偏 差 ( Residual prediction deviation, RPD) ,其 
中 当 RPD ==2 时 ,模型 达到 精准 ; 当 1.4 <RPD <2 
时 ,模型 精度 可 靠 ; 当 RPD <1.4 时 ,模型 并 不 可 


[28] 
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2 结果 
2.1 研究 区 土壤 有 机 质 含量 描述 

SOM 含量 的 基本 描述 情况 如 表 1 所 示 。 可 知 
研究 区 所 有 土 样 集 的 SOM 含量 平均 值 为 32.93 g- 
kg” ,校正 集 与 验证 集 对 应 的 有 机 质 含量 分 别 为 
30.63 g- kg-' 和 41.21 g. kg-!。 全 样本 集 REE 


和 验证 集 的 变异 系数 ( Coefficient of variation , CV) 分 
别 为 40.57% .39.35% 和 29. 53% , 属于 中 等 变异 。 
由 表 2 可 知 ,不 同 土地 利用 类 型 中 ,林地 SOM 含量 
均值 最 大 ,为 47.80 g- kg ,依次 为 农田 、 盐 涡 地 与 
荒地 。 标 准 差 最 大 值 与 最 小 值 分 别 为 林地 
14.05 g' kg 与 荒地 8.59 g .kg ,各 地 类 变异 系 
数 属于 中 等 变异 。 
2.2 不 同 SOM 含量 小 波 变换 分 析 

选取 SOM 含量 差异 较 大 的 3 种 土 样 ,分 别 为 
41.32 g .kg 33.91 g. kg 和 22.71 g + ke , 探 
究 各 土 样 小 波 分 解 特征 光谱 之 间 的 差异 。 

同 SOM 含量 下 小 波 变换 后 重 构 光 谱 如 图 2 所 
示 , 从 不 同 含量 SOM 经 小 波 分 解 后 的 室内 光谱 曲线 
图 2 可 以 看 出 ,不 同 SOM 含量 光谱 曲线 在 Ll ~ L8 
小 波 分 解 层 中 形态 较为 一 致 ,整体 上 呈现 上 凸 的 抛 
物 线形 。 根 据 以 往 研究 , 当 SOM 含量 大 于 2% 
时 ,SOM 含量 则 在 描述 土壤 光谱 反射 率 特性 中 起 主 
要 作用 。 在 LO ~ 18 小 波 分 解 重 构 光 谱 中 ,每 一 层 光 
谱 反 射 率 都 是 随 着 SOM 含量 增加 而 降低 。 在 400 ~ 
800 nm 之 间 , 每 一 层 重 构 光谱 都 形成 一 个 陡坡 , 反 
射 率 在 此 波段 范围 内 增加 较 快 ,同时 随 着 分 解 层 数 
的 增加 ,光谱 曲线 逐渐 变 得 平滑 , 消除 了 大 部 分 品 
声 ,直到 77 层 , 光 谱 曲 线 逐 渐变 成 一 条 直线 。 在 近 
红外 区 域 , 反 射 率 变 化 较为 平缓 ,同时 形成 以 
1 400 nm 1 900 nm ,2 200 nm 波段 为 主 的 水 分 吸收 
谷 , 随 着 分 解 层 数 的 增加 ,水 分 吸收 谷 逐 渐变 得 平 
坦 , 直 到 L8 层 33.91 g- kg- 和 22.71 g .kg 有 机 


R1 SOM 含量 描述 性 统计 
Tab.1 Statistical characteristics of SOM of soil samples 


样品 集 土 样 均值 标准 差 ” 最 小 值 RAKE ”变异 系数 
数 /gkg | /gkg ! /gkg ! /gkg / gkg! 
全 样本 集 nB 32.93 15. 16 15. 13 70.77 40.57 
校正 集 51 30. 63 14.56 15. 13 70.77 39.53 
验证 集 22 41.21 13.79 13.04 69. 66 29. 53 


R2 土壤 表层 不 同 土地 利用 方式 下 SOM 含量 
Tab.2 SOM contents in top soil under different 
type of land use 


by GEO WME ”最 大 值 SAO 标准 差 SRA 
ee 数 /erke-! /g-ke-! /gkg-! /gkg-! 数 /% 
农 31 18.55 70.77 35.01 13.40 38.29 
林 地 5 27.85 69.66 47.80 14. 05 29.41 
盐 渍 地 30 15.13 53.53 32.13 10. 43 32.46 
we 地 6 13.04 37.21 29.05 8.59 29.57 
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图 2 


不 同 SOM 含量 小 波 分 解 重 构 光 谱 


Fig 2 Wavelet decomposition and reconstruction spectra under different SOM contents 


质 含量 的 光谱 曲线 已 经 看 不 到 水 分 吸收 谷 ,在 850 
nm 波段 范围 内 有 明显 吸收 。 
2.3 不 同 土地 利用 方式 下 小 波 变 换 分 析 

图 3 为 4 种 不 同 土地 利用 方式 下 经 小 波 变换 后 
的 土壤 光谱 曲线 ,分 别 为 耕作 土壤 、 林 地 土壤 、 盐 汗 
土壤 和 充 漠 土壤 ,同时 4 种 不 同类 型 土壤 的 SOM 含 
量 均 在 22.63 g' kg 附近。 通过 LO 原始 光谱 曲线 
发 现 , 在 400 ~800 nm 范围 内 ,4 种 土壤 类 型 光谱 曲 
线 随 着 波长 增加 ,反射 率 急 剧 上 升 ,形成 4 个 反射 
峰 ,荒漠 土壤 反射 率 上 升 最 快 ,曲线 斜率 最 大 ,直到 
900 nm 左右 超越 其 它 类 型 土壤 ,之 后 保持 反射 率 第 
一 的 位 置 ,荒漠 土壤 与 盐 溃 土壤 的 光谱 曲线 在 500 ~ 
900 nm 之 间 存 在 一 个 明显 的 马 形 突起 区 ,该 发 现 与 
高 志 海 等 研究 相符 。 在 以 1 400 nm、1 900 nm 和 
2 200nm 波段 为 主 的 水 分 吸收 谷 , 盐 溃 土壤 的 水 分 
吸收 谷 最 深 ,依次 为 荡 漠 土壤 、 耕 作 土 壤 与 林地 土 


壤 , 同 时 随 着 小 波 分 解 的 进行 到 18 Jee, RA ER 
壤 光 谱 曲 线 还 有 着 明显 水 分 吸收 谷 。 在 可 见 光 范围 
内 ,这 4 种 土壤 类 型 光谱 曲线 出 现 交 义 现象 ,这 与 李 
洪 等 中 的 研究 较为 一 致 。 在 1 000 ~2 400 nm 波段 
范围 内 ,林地 土壤 光谱 曲线 变化 较为 平衡 , 盐 渍 土壤 
光谱 曲线 波动 最 为 剧烈 , 接 下 来 为 荡 漠 土壤 与 耕作 
土壤 。 经 过 小 波 变 换 后 ,在 TA 与 L5 层 去 噪 效 果 达 
到 最 佳 ,光谱 曲线 基本 无 毛 躁 现象 ,同时 又 很 好 的 保 
留 了 不 同 土壤 类 型 光谱 曲线 的 特征 ,但 是 在 LT 与 
L8 层 中 ,已 经 消除 了 大 部 分 光谱 特征 。 
2.4 SOM 与 重 构 光 谱 相 关 性 分 析 

对 每 个 土壤 样本 反射 率 进行 小 波 变换 ,变换 后 
得 到 各 层 分 解 特征 光谱 ,并 且 在 此 基础 上 进行 9 种 
常规 数学 变换 ,最 后 得 到 土壤 反射 光谱 的 敏感 波段 。 
选取 8 层 分 解 光谱 反射 率 与 SOM 含量 进行 相关 性 
分 析 , 表 3 与 表 4 中 的 相关 系数 均 通 过 0.01 置信 水 
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图 3 不 同 土地 利用 方式 下 小 波 分 解 重 构 光谱 


Fig 3 Wavelet decomposition and reconstruction spectra under different land use type 


平 下 的 下 检验 。 在 表 3 PL ~ 13 层 通过 相关 性 显 
著 性 检验 波段 的 数量 几乎 一 致 ,同时 人 敏感 波段 基本 
集中 在 2 337 nm 附近 ,最 大 相关 系数 为 0.435 8 , 变 
化 趋势 不 明显 , 随 着 分 解 层 数 的 增加 ,SOM 的 显著 
性 波段 在 L6 达 到 最 多 ,但 是 在 L7 与 18 分 解 光 谱 


表 3 SOM 与 各 层 特征 光谱 相关 分 析 
Tab.3 Correlation analysis between SOM and spectra 


from wavelet analysis in each level 


小 波 分 解 屋 。” ”敏感 波段 数 波段 最 大 相关 系数 
L 302 2 338 0. 435 8 
122 298 2 337 0. 435 6 
13 299 2 337 0. 435 5 
IA 299 2 337 0. 434 7 
I5 304 2 330 0. 431 4 
L6 268 2 310 0. 425 3 
LI 293 2 320 0.4167 
18 285 2 348 0. 414 0 


的 显著 性 波段 数 快速 减少 ,同时 最 大 相关 系数 也 迅 
速 减少 。 由 于 LO 层 分 解 光 谱 不 仅 能 去 噪 ,还 能 最 大 
程度 保留 光谱 信息 ,因此 本 研究 选择 最 大 分 解 层 数 
为 6 层 , 并 在 L1 ~ L6 的 基础 上 进一步 分 析 。 

以 光谱 反射 率 R 及 其 9 种 常规 数学 变换 与 
SOM 含量 的 相关 系数 通过 显著 性 检验 的 最 大 相关 
系数 以 及 所 在 波段 位 置 进行 统计 ,如 表 4 所 示 。 观 
察 发 现 前 4 种 数学 变换 敏感 波段 基本 在 2 300 ~ 
2 400 nm 之 间 , 且 最 大 相关 系数 在 0. 40 ~ 0.50 Æ 
右 , 后 4 种 经 过 微分 变换 的 敏感 波段 集中 在 2 100 ~ 
2 300 nm 之 间 , 且 最 大 相关 系数 在 0. 45 ~ 0.70 之 
间 。 此 外 ,由 表 4 看 出 ,在 经 过 (1/LgR)' 数 学 变换 ， 
各 敏感 波段 在 此 处 均 出 现 了 较 高 的 相关 系数 ,其 他 
微分 处 理 均 很 好 的 提高 了 相关 性 ,观察 得 出 各 分 解 
层 数 经 过 微分 变换 后 均 极 大 提高 了 与 SOM 含量 的 
相关 性 ,同时 最 大 相关 系数 集中 在 L4 重 构 光 谱 范 
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表 4 SOM 与 重 构 光谱 数学 变换 的 最 大 相关 性 及 其 波段 所 处 位 置 


Tab.4 Maximum correlation and the location of its band between SOM and different mathematical transformation 


of reconstruction spectra 


R LgR 1/R Lgl/R 1/LgR R’ (LgR)’ (I/R)! (Lgl /R)' (1 / LgR)’ R' 
10 Band 2337 2 337 2 337 2 337 2339 2110 2 304 844 2 304 2 109 
R 0. 436 0.417 -0.398 -0.417 -0.484 0.449 0. 445 -0.477 -0.446 -0.609 
L1 Band 2338 2 338 2 338 2 337 2338 2288 2 288 843 2 288 2 109 
R 0. 436 0.417 -0.398 -0.417 -0.484 0.468 0. 456 -0.465 -0.455 -0.620 
12 Band 2337 2 336 2 336 2 337 2338 2283 2 283 2 283 2 283 2 110 
R 0. 436 0.417 -0.398 -0.417 -0.484 0.498 0. 496 -0.489 -0.496 -0.596 
B Band 2337 2 337 2 336 2 337 2339 2280 2 283 2 283 2 283 2 280 
R 0. 436 0.417 -0.398 -0.417 -0.484 0.547 0. 526 -0.511 -0.527 -0.655 
IA Band 2337 2 335 2 334 2 335 2338 2281 2 281 2 281 2 281 2 281 
R 0. 435 0.416 -0.397 -0.416 -0.483 0.567 0. 532 -0.505 -0.532 -0.688 
15 Band 2330 2 328 2327 2 328 2335 2212 2210 2 210 2210 2276 
R 0. 431 0.413 -0.394 -0.413 -0.479 0.528 0. 535 -0.524 -0.534 -0.635 
16 Band 2310 2 309 2 308 2 309 2325 2273 2 216 2 216 2 216 2 273 
R 0.425 0.406 -0.388 -0.406 -0.475 0.461 0.479 -0.524 -0.478 -0.527 


围 的 2 281 nm 波段 周围 。 
2.5 SOM 与 重 构 光 谱 重 要 性 分 析 

以 SOM 含量 为 因 变 量 , 在 LO 至 L6 小 波 分 解 光 
谱 中 ,选择 每 一 层 及 其 9 种 数学 变换 中 相关 系数 最 
大 的 波段 的 反射 率 共 7 种 因子 作为 模型 的 自 变量 ， 
建立 随机 森林 分 类 预测 模型 , 表 5 为 RF 模型 精度 
拟 合 结果 。 观 察 得 ,训练 集 的 R 为 0. 68 , RMSE 为 
2.11 ,测试 集 尼 为 0.70,RMSE 为 2.45。 

图 4 列 出 了 7 种 因子 对 SOM 含量 的 影响 贡献 
RE, BD LO-1/LgR, Li-1/LgR, L2-( 1/LgR )'、13- 
(1/LgR)’ IA-( 1/LgR )', L5-( 1/LgR )', L6- 
(1/LgR)’, 同时 Mean Decrease Accuracy 分 别 为 
17.41 12.97 .8. 04,6. 82,6. 16 2. 87 .2.74 ,并 按照 
从 高 到 低 进 行 排序 。 由 图 4 观察 得 ,对 SOM 含量 影 
响 较 大 的 因子 为 3-(1/LgR)', 其 次 为 4-(1/LgR)'、 
16-(1/LgR )', L5-( 1/LgR )', £2-( 1/LgR )'、 LO- 
1/LgR、L1-1/LgR。 小 波 分 解 光 谱 中 频 范 围 , 即 L3 
与 IA 层 结合 (1/LgR) ' 数 学 变换 对 SOM 预测 贡献 度 
最 大 ,高 频 与 低频 范围 , 即 L2 L5 L6 层 结合 (1/LgR)' 


表 5 SOM 含量 随机 森林 模型 模拟 精度 
Tab.5 Simulation accuracy of random organic forest 


model of soil organic matter content 


R? RMSE 
训练 集 0. 68 2.11 
测试 集 0.70 2.45 


TE : Band 代表 最 大 相关 系数 波段 的 所 在 位 置 ,R 代表 最 大 相关 系数 ,10 代表 没有 经 过 小 波 变换 的 原始 光谱 


L1-(1/LgR) 
LO-(1/LgR) 一 
L2-(1/LgR})' Es 
L5-(1/LgR)' Eo | 
6-cnery DW 
-OLR | 


LB-U/LgR)' t T I I I I I i f 


小 波 分 解 因子 


0 2 4 6 8 10 12 14 16 18 20 
相对 重要 性 
图 4 土壤 有 机 质 含量 在 各 小 波 分 解 特征 光谱 的 变量 重要 性 


Fig.4 


Importance of soil organic matter content in the 


spectral characteristics of each wavelet decomposition 


数学 变换 对 SOM 含量 影响 较 小 ,10-LZLgR 5 L1-1/ 
LgR 因子 对 SOM 含量 预测 贡献 度 最 小 。 

利用 灰色 关联 分 析 法 对 数学 变换 后 的 6 层 重 构 
光谱 与 SOM 含量 进行 分 析 , 并 对 其 结果 进行 排序 ， 
见 表 6。 除 了 LO 原始 光谱 以 及 不 同 数学 变换 与 
SOM 含量 的 灰色 关联 度 ,其它 重 构 光谱 灰色 关联 度 
排序 大 概 相 似 。 根 据 L1 ,其 排列 顺序 为 R > 1/LgR 
> 1/R > (1/LgR)’ > Lgl/R > LeR > (1/R)’'> 
(LgR)' > (Lgl/R)' > R'。 通 过 对 比 灰 色 关 联 分 析 
与 随机 森林 建 模 分 类 ,研究 发 现在 灰色 关联 分 析 下 ， 
各 层 重 构 光谱 关联 度 排序 为 原始 光谱 第 一 ,其 次 是 
各 数学 变换 重 构 光 谱 , 并 且 无 法 区 分 各 层 重 构 光 谱 
的 纵向 排序 ,相反 随机 森林 分 类 方法 ,各 因子 在 重要 


tó wy 


表 6 各 层 重 构 光谱 与 不 同 数学 变换 的 灰色 关联 分 析 


Fig.6 Gray relational analysis of different mathematical transformation of reconstruction spectra of each level 


R LgR 1/R Lgl/R 1/LgR R' (LgR)’ (1/R)’ (Lgl/R)’ (1/LgR)' 
LI0 ”关联 度 (P =0.5) 0.5662 0.5449 0.56 0.5449 0.5542 0.5863 0.4341 0.4439 0.4335 0.5537 
排序 2 7 3 6 4 1 9 8 10 5 
Ll 关联 度 (P=0.5) 0.9084 0.894 0.8993 0.894 0.9064 0.3336 0.4006 0.8363 0.4003 0. 8945 
排序 1 6 3 5 2 10 8 7 9 4 
LI2 ”关联 度 (P=0.5) 0.6673 0.6428 0.6562 0.6428 0.6579 0.4496 0.4441 0.4301 0.444 0. 6521 
排序 1 5 3 6 2 7 8 10 9 4 
13 ”关联 度 (P=0.5) 0.7852 0.7619 0.772 0.7619 0.7794 0.4926 0.5708 0.5736 0.571 0.4699 
徘 序 1 5 3 4 2 9 8 6 7 10 
14 ”关联 度 (P=0.5) 0.8979 0.8825 0.8883 0.8825 0.8956 0.6016 0.6255 0.6414 0.6253 0. 5029 
排序 1 4 3 5 2 9 7 6 8 10 
15 ”关联 度 (P=0.5) 0.7215 0.6972 0.7094 0.6972 0.7134 0.4622 0.6651 0.6468 0.6653 0.3757 
排序 1 4 3 5 2 9 7 8 6 10 
16 ”关联 度 (P=0.5) 0.7924 0.7698 0.7803 0.7698 0.786 0.4012 0.7673 0.7581 0.7673 0. 4795 
HEJ? 1 5 3 4 2 10 7 8 6 9 
注 : 关 联 度 在 灰色 关联 分 析 中 代表 灰色 关联 系数 ,排序 在 灰色 关联 分 析 中 代表 关联 程度 


性 排序 过 程 中 ,纵向 与 横向 排列 中 都 能 进行 有 效 的 
区 分 。 研 究 表明 :机 器 学 习 分 类 方法 相 比 较 传 统 线 
性 数学 模型 分 类 ,具有 较 好 的 灵活 性 .实用 性 。 
2.6 SOM 含量 建 模 验 证 与 分 析 

选取 原始 光谱 与 重 构 光 谱 中 与 SOM 相关 性 最 
大 的 波段 为 多 元 逐步 回归 模型 的 自 变 量 ,SOM 含量 
为 模型 的 因 变 量 。 并 且 参 照 SOM 含量 与 重 构 光 谱 
随机 森林 分 类 结果 , 即 LO -1/LgR \L1-1/LgR \L2-(1/ 
LegR) .13-(1/LgR)’' .I4-(1/LgR)’.15-(1/LgR)'、 
16-(1/LgR) 一 一 对 应 的 特征 波段 作为 多 元 逐步 回 
归 建 模 自 变量 L-MC ,SOM 含量 作为 模型 因 变 量 , 模 
型 参数 和 精度 参数 如 表 7 所 示 。 根 据 表 7 所 示 的 具 
体 每 一 层 重 构 光 谱 模 型 的 精度 参数 进行 分 析 发 现 ， 
上 述 9 个 模型 中 ,无 论 是 建 模 集 还 是 验证 集 ,RPD 二 


1.4 的 模型 达到 8 个 。 在 10 ~16 中 ,除了 76 外 ,其 
它 各 层 重 构 光 谱 均 能 很 好 的 提升 模型 的 精度 ,同时 
L-MC 模型 ,精度 最 高 ,R =0. 73 , 建 模 RPD H 1.94, 
R? =0.74, 验 证 RPD 为 1.96。 同 时 发 现 基 于 LA 与 
L3 重 构 光谱 所 构建 的 模型 ,预测 精度 较 高 , 验证 
RPD 达到 1. 80 以 上 。 说 明 经 过 小 波 变 换 后 [3 LA 
层 重 构 光谱 可 以 一 定 程度 增强 光谱 对 SOM 含量 的 
敏感 程度 ,这 3 种 模型 对 于 研究 区 的 SOM 含量 具有 
较 好 的 定量 反 演 能 力 。 所 以 确定 这 3 种 模型 为 最 优 
反 演 模型 。 

图 5 基于 [3 TA Al L-MC 模型 中 实测 值 与 预测 
值 的 散 点 图 。 由 图 中 可 以 看 出 [3 LA Fil L-MC 中 样 
点 基本 分 布 于 1 : 1 线 附近 。 各 拟 合 线 中 ,L-MC 的 
系数 最 小 ,其 中 R 达到 0.74,RPD =1. 96, 


表 7 土壤 有 机 质 含量 反 演 模型 及 精度 验证 


Tab.7 Inversion models of soil organic matter content and precision validation 


oe TAM 建 模 集 验证 集 
变量 模型 2 2 
R RPD R; RPD 
LO Y =23. 6 -6 965. 58X710; +54 553. 28X046 0. 68 1.77 0. 65 1. 60 
Ll 了 =14. 67 -7 570.08X,100 0.61 1.6 0. 62 1.58 
12 Y=19. 48 -7 371. 65X 5119, + 55 148. 13X2283r 0. 66 1:72 0.66 1.65 
BB Y =36. 14 -42 583. 03Xy¢9, —206 784. 62X x99 0. 64 1. 68 0.72 1.81 
IA Y =33. 18 -34 335. 85X yg); — 146 964. 93.X zgi r 0.70 1. 82 0.72 1. 83 
L5 了 =8. 15 -19 945. 83X776; +477 430. 17X127 +64 501. 91X304 0.76 2.06 0. 63 1. 60 
16 Y =34. 67 - 11. 62X 4395 +282 270. 09X2216c 0.51 1.43 0.49 1. 40 
L-MC 了 =24. 84 — 13 355. 03X91 jq) —3 962. 40X 109; 19) 0. 73 1.94 0.74 1. 96 


TES 代表 (1/LgR)', 6 代表 (LgR) FR RH RRR) 
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120 - (a) 13 模 型 120p (b) [4 模型 
100 + y=0.85x+6.78 100 F y=0.82x+9.51 
R?=0.72 R?=0.73 
80 + RPD=1.81 80 上 RPD=1.83 
‘a a 
= 60 = 60 
E Es 
40 。 验证 集 40 验证 集 
1:1 1:1 
a oe 拟 合 线 BU ge 拟 合 线 
0 1 1 1 1 1 J 0 1 1 1 1 1 J 
20 40 60 80 100 120 20 40 60 80 100 120 
实测 值 实测 值 


120 Co) L-MC 模 型 


y=0.79x+8.40 
R?=0.74 
RPD=1.96 


iq 
= 60 
) y 
~y 40 。 验证 集 图 5 L3、I4 与 L-MC 模 型 的 SOM 含 量 实测 值 
fey) 1:1 与 预测 值 比较 
hans 201 37 l 拟 合 线 Fi i 
T ig.5 Measured values of SOM in L3,IA and L-MC 
© 0 f : i i l : models were compared with the predicted values 
20 40 60 80 100 120 
O 实测 值 


3 讨论 段 以 微分 处 理 、S-C 平滑 、 多 元 散射 校正 与 标准 正 态 


本 研究 结果 表明 ,通过 小 波 变 换 分 解 光谱 结合 
数学 微分 变换 与 随机 森林 重要 性 参数 分 类 方法 , 优 
选 有 效 的 特征 波段 ,将 所 得 结果 作为 SOM 含量 多 元 
线性 模型 预测 的 重要 因子 ,可 以 有 效 的 实现 干旱 区 
SOM 含量 的 快速 估 测 。 

研究 区 为 典型 的 内 陆 干 旱 区 ,绿洲 边缘 部 分 盐 
渍 化 与 荒漠 化 现象 明显 ,长 年 累 月 侵蚀 内 部 农田 , 通 
过 分 析 农 田 土壤 、 林 地 土壤 与 盐 渍 土壤 .荒漠 土壤 在 
相同 SOM 含量 下 光谱 曲线 的 差异 ,发 现 富 含 养分 的 
土壤 类 型 与 贫 凌 土壤 类 型 的 光谱 曲线 在 水 分 波段 吸 
收 谷 与 整体 波动 存在 很 大 差异 ,结合 小 波 变换 ,凸显 
和 简化 了 不 同 土壤 类 型 光谱 曲线 的 差异 。 根 据 SHI 
等 研究 土壤 光谱 曲线 反射 率 随 着 SOM 含量 的 升 
高 总 体 呈 下 降 的 趋势 ,同时 SOM 含量 与 光谱 反射 率 
的 相关 系数 较 高 峰值 集中 在 400 nm .800 nm 1 400 
nm 与 2 200 nm 范围 内 。 如 图 2 .图 3 和 表 3 所 示 ， 
本 研究 中 ,不 同 SOM 含量 下 与 不 同类 型 土壤 的 分 解 
特征 光谱 符合 SHI 等 中 研究 ,同时 SOM 含量 与 各 
小 波 分 解 特征 光谱 的 相关 系数 高 值 集中 在 2 200 nm 
范围 内 。 高 光谱 遥感 的 本 质 是 将 待 测 物 连续 通道 的 
电磁 波谱 信息 转化 为 光 信号 ,常用 的 光谱 去 噪声 手 


dd 变换 等 方法 为 主 ,上 述 方法 在 光 信号 处 理 上 较为 适 


用 ,但 是 这 些 方法 在 对 光谱 数据 去 品 的 同时 难免 会 
引入 新 的 噪声 ,而 小 波 变换 凭借 在 时 域 和 频 域 对 于 
言 号 的 局 部 化 分 析 能 力 ,通过 伸缩 平移 对 信和 号 逐步 
进行 多 尺度 细 化 ,最 终 达 到 高 频 与 低频 处 信号 的 细 
分 ,在 保留 原状 信号 的 同时 , 尽 可 能 的 分 离 噪声 ,是 
一 种 较 好 的 电信 号 噪声 去 除 方法 。 结 合 相 关 性 分 析 
与 分 解 光 谱 特 征 分 析 的 结果 ,本 文 确 定 最 佳 SOM 特 
征 光 谱 的 小 波 分 解 层 数 为 6。 陈 红 艳 等 研究 小 
波 分 解 后 的 潮 土 光 谱 与 SOM 含量 的 关系 ,并 将 小 波 
分 解 光谱 层 确定 为 9 层 ; 王 延 仓 等 '” 研究 了 小 波 分 
解 后 的 北方 潮 土 光谱 与 SOM 含量 的 关系 ,进一步 将 
小 波 分 解 光谱 层 数 确 定 为 6; 张 锐 等 ”研究 了 小 波 
变换 后 的 原状 水 稻 土 光谱 与 SOM 含量 的 相关 性 , 相 
关系 数 与 敏感 波段 在 第 6 层 达 到 最 高 ,以 上 研究 表 
明 ,最 优 分 解 层 不 一 定 都 相同 ,原因 包括 土壤 类 型 、 
土壤 质地 .土壤 水 分 等 其 他 因素 。 

随机 森林 预测 分 类 模型 相 较 于 传统 的 线性 预测 
分 类 模型 ,比如 灰色 关联 分 析 , 具 有 显著 的 优越 性 。 
灰色 关联 分 析 已 经 广泛 用 于 土壤 光谱 研究 中 ,但 只 
能 对 于 土壤 的 某 些 特定 属性 与 近 红 外 光谱 之 间 的 理 
想 线性 关系 进行 模拟 ,然而 土壤 属性 与 相应 近 红 外 
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光谱 之 间 的 关系 不 仅仅 是 简单 的 线性 关系 ,所 以 利 
用 简单 的 线性 预测 分 类 ,不 能 有 效 的 反应 土壤 性 质 
与 特征 光谱 之 间 的 真实 关系 。 随 机 森林 模型 在 描述 
两 者 之 间 的 非 线性 关系 ,通常 会 取得 理想 的 预测 分 
类 结果 。 在 两 类 预测 分 类 模型 中 ,随机 森林 模型 不 
仅 在 统计 结果 上 优 于 灰色 关联 分 析 , 也 在 预测 能 
上 表现 出 更 优 的 可 靠 性 和 稳定 性 。 

小 波 分 解 将 光谱 分 成 了 不 同 频率 并 重 构 , 低 频 
范围 包含 了 更 多 高 频 范围 ,高 频 范围 更 多 反映 了 十 
焉 中 全 所 全 磁 等 信息 的 光谱 细节 。 为 了 更 进一步 
探讨 各 小 波 分 解 层 结合 数学 变换 对 SOM 含量 光谱 
预测 的 影响 ,利用 随机 森林 预测 分 类 ,获得 各 因子 对 
于 SOM 含量 预测 的 重要 性 ,进一步 验证 了 中 频 范围 
的 小 波 分 解 结合 (1ZLSR) ' 数 学 变换 不 仅 能 有 效 去 
除 光谱 噪声 ,还 能 保持 SOM 的 光谱 细节 ,解决 了 圭 
二 光谱 有 机 质 信息 噪声 去 除 与 保留 信息 之 间 的 巴 
盾 。 但 是 根据 王 延 仓 等 研究, 小波 分 解 重 构 光 谱 
在 低频 范围 对 SOM 含量 的 估 测 能 力 优 于 高 频 范围 
本 实验 中 ,高 频 范围 分 解 光谱 对 SOM 含量 估 测 能 
较 弱 ,与 其 相符 ,但 基于 中 频 范围 13 与 14 层 模型 的 
估 测 能 力 最 高 ,与 其 不 符 。 可 能 是 土壤 类 型 的 不 同 ， 
导致 实验 结果 不 一 致 

本 文 存在 一 定 不 足 ,土壤 中 其 他 属性 必然 会 对 
SOM 光谱 预测 产生 影响 ,比如 土壤 水 分 ,如 何 有 效 
的 减少 该 方面 的 影响 仍 需 展 开 研究 ;随机 森林 预测 
分 类 模型 需要 更 多 参数 大 规模 复杂 训练, 以 及 对 生 
成 树 的 数量 (8 = ntree ) 和 预测 变量 树 (d = mty ) 参 
数 进行 反复 设 定 , 选择 最 优 解 。 本 文 利用 典型 样 点 
得 到 较 好 的 预测 精度 ,下 一 步 研究 中 ,将 扩大 样 点 
数 ,对 随机 森林 模型 进行 训练 ,获得 更 可 靠 的 结 
同时 将 反射 光谱 与 现 有 的 多 源 珊 感 系统 相 结合 ，; 
干旱 区 土壤 养分 的 研究 提供 科学 依据 。 
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4 结论 


本 研究 以 小 波 变 换 对 原始 土壤 光谱 进行 分 解 重 
构 ,分 别 分 析 了 不 同 SOM 含量 与 不 同 土壤 类 型 的 小 
波 分 解 光谱 差异 。 通 过 相关 性 分 析 和 特征 光谱 分 析 
结果 ,确定 小 波 分 解 的 最 大 尺度 ,对 各 分 解 光谱 进行 
数学 变换 ,结合 随机 森林 建 模 分 类 与 灰色 关联 分 析 ， 
分 析 各 因子 对 于 SOM 含量 预测 的 重要 性 。 主 要 结 

(1) 富 含 养 分 的 土壤 类 型 较 贫 痛 土 壤 类 型 的 光 


谱 曲 线 在 水 分 波段 吸收 谷 范 围 内 整体 波动 更 大 , 随 
着 分 解 层 数 增加 光谱 曲线 逐渐 变 得 平滑 ,基本 看 不 
出 显著 差别 。 

(2) 小 波 变换 不 同 分 解 层 ,从 低频 到 高 频 范 转 
内 与 SOM 含量 的 相关 性 呈现 先 减 后 增 的 趋势 ,第 6 
层 显著 波段 较 多 上 且 相关 性 较 高 ,同时 光谱 细节 保持 
良好 ,确定 第 6 层 为 最 大 分 解 层 数 。 

(3) 通过 灰色 关联 分 析 与 随机 森林 预测 分 类 的 
结果 比较 ,随机 森林 模型 相 比 灰色 关联 分 析 对 于 各 
小 波 分 解 层 因子 的 筛选 符合 预期 ,按照 对 SOM 含量 
影响 从 高 到 低 排 序 为 [3-(1/LgR)'、14-(1/LgR)'、 
L6-(1/LgR )', L5-( 1/LgR )', L2-( 1/LgR )'、 L0- 
1/LgR L1-1/LgR, 

(4) 小 波 分 解 的 中 频 范围 23 与 LA 模型 ,以 及 
L-MC 模型 对 干旱 区 SOM 含量 的 反射 光谱 快速 估算 
较为 适用 。 
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Hyperspectral detection of soil organic matter content based on 
random forest algorithm 


BAO Qing-ling'?, DING Jian-li'’, WANG Jing-zhe'?, CAI Liang-hong'” 
(1 Key Laboratory of Wisdom City and Environmental Modeling Department of Education ,Xinjiang University , Urumqi 830046 , 
Xinjiang ,China; 2 Key Laboratory of Oasis Ecology ,Xinjiang University , Urumqi 830046 , Xinjiang , China) 


Abstract; In order to explore how to retain the spectral information and accurately detect the soil organic matter 
content ,this paper investigated the possibility of using spectral processing techniques such as wavelet decomposition 
and random forest method to estimate the soil organic matter content and analyze the spectral curves of different 
wavelet decomposition reconstruction spectra in different soil types using spectroscopy data. This study took the soil 
samples as the study objects which were collected in Weigan River Oasis of Kuga County ,a typical arid area oasis at 
north-central of the Tarim Basin in Xinjiang, China. The soil organic matter content of these samples was deter- 
mined. The ASD Field Spec FR was used to measure the soil samples spectrum, and the spectral data were prepro- 
cessed by wavelet decomposition and mathematical transformation. Discrete wavelet transform (DWT) has the func- 
tion of multi-scale analysis , which can transform multi-scale wavelet decomposition of soil near infrared spectroscopy 
data to analyze the spectral curves of different wavelet decomposition reconstruction spectra in different organic mat- 
ter content and different soil types. The correlation analysis was used to determine the maximum wavelet decomposi- 
tion layer and filter sensitive bands. Finally ,a multi-variant linear prediction model about soil organic matter content 
was established based on the optimal characteristic spectrum produced by combining grey correlation analysis , ran- 
dom forest method to analyze the significance of different wavelet decomposition characteristic spectra. The results 
showed as follows: (1) The spectral reflectance of each wavelet decomposed is decreased with the increase of or- 
ganic matter content. At the same time, the spectral curve of cultivated soil and forest soil shows a more gradual 
change than that of the saline soil and desert soil. (2) The correlation between the decomposition spectrum of the 
wavelet transform and the soil organic matter content is decreased first and then increased with the increase of the 
decomposition layer. In the sixth layer ,the characteristic spectral curve and the number of sensitive bands tend to be 
stable , which helps to determine this layer as the largest decomposition layer of wavelet transform. (3) Compared 
with the gray correlation analysis ,the random forest model is in line with the expectation for screening the factors of 
wavelet decomposition at each layer ,and it comes a list of descending order according to the impact on soil organic 
matter content as follows: 3-(1/LgR)',I4-(1/LeR)',L6-(1/LeR)’ ,L5-(1/LgR)' ,£2-(1/LeR)’ , L0-1/LeR ,L1- 
1/LgR. (4) Combining all SOM estimation models for statistical analysis ,the model based on L-MC has the highest 
accuracy. The research shows that the monitoring of soil spectral organic matter content based on machine learning 
classification method combined with wavelet decomposition can effectively reduce noise band interference and im- 
prove the classification prediction accuracy of feature bands. The random forest prediction classification model has 
significant advantages over the traditional linear prediction classification model, such as gray correlation analysis. 
The random forest model not only outperforms the grey correlation analysis in statistical results , but also shows better 
reliability and stability in predicting ability. The results could provide scientific reference and support for the study 
of soil nutrients in the arid zone and local precision agriculture. 
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